AI TNT— 让一部分先用AI实现商业化

比斯坦福DPO（直接偏好优化）更简单的RLHF平替来了，来自陈丹琦团队。该方式在多项测试中性能都远超DPO，还能让8B模型战胜Claude 3的超大杯Opus。而且与DPO相比，训练时间和GPU消耗也都大幅减少。

来自主题: AI资讯

7891 点击 2024-05-27 16:39